데이터분석 준전문가 41회

데이터 이해


1. DIKW 피라미드 계층구조의 요소에 대한 설명으로 옳지 않은 것은?
  •  Data - 가공하기 전의 순수한 수치나 기호
  •  Insight - 패턴을 인식하고 의미를 부여한 데이터
  •  Knowledge - 패턴 이해를 토대로 예측한 결과물
  •  Wisdom - 원리 이해로 도출되는 창의적 아이디

2. 아래에서 설명하는 용어로 알맞은 것은?
[다양한 의미 전달 매체에 의하여 표현된 데이터, 지식, 저작물 등의 인식 가능한 모든 자료
  •  데이터베이스(Database)
  •  DBMS(Database Management System
  •  데이터베이스시스템(DB System)
  •  콘텐츠(Contents)

3. 다음에서 설명하는 기업 내부의 데이터베이스 솔루션으로 옳은 것은?
[기업의 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로 구매, 생산, 재고, 유통, 고객 데이터로 구성되어 있다.]
  •  ERP
  •  SCM
  •  ITS
  •  CRM

4. 빅데이터가 만들어낸 변화의 양상으로 옳지 않은 것은?
  •  표본조사-->대면조사
  •  사후처리-->사전처리
  •  질보다-->양적으로
  •  인과관계-->상관관계

5. 빅데이터의 가치 산정하기 어려운 이유로 옳지 않은 것은?
  •  폐쇄적 데이터 활용방식
  •  데이터가 기존에 없던 가치를 창출
  •  데이터 분석 기술의 발달
  •  가치경제 측정방식의 변화

6. 다음 괄호 안에 들어갈 말로 알맞은 것은?
데이터 오용의 피해를 막아 줄 유망한 직업으로 알고리즘 접근권 보장, 알고리즘에 불이익을 당한 사람들을 대변해 피해자를 구제할 수 있는 능력을 가진 전문가인(  )의 역할이 대두됨.
  •  데이터관리자
  •  알고리즈미스트
  •  정보보안전문가
  •  애널리스트

7. 빅데이터 시대의 위기 요인과 통제방안의 조합으로 알맞은 것은?
가. 사생활 침해 - 동의제에서 책임제로 변환
나. 데이터 오용 - 알고리즘 접근 허용
다. 책임원칙훼손 - 정보 선택 옵션 제공
  •  가,나
  •  가,다
  •  나,다
  •  가,나,다

8. 통찰력있는 분석을 하기 위해 데이터 분석가가 갖춰야할 역량으로 옳지 않은 것은?
  •  창의적 사고
  •  호기심
  •  연구윤리
  •  논리적 비판

9. 다음 중 데이터 사이언티스트에게 요구되는 소프트 킬을 모두 나열한 것은?
가. 이론적 지식
나. 분석기술에 대한 숙련
다. 커뮤니케이션 기술
라. 시각화를 활용한 설득력
마. 창의적 사고
  •  가, 나, 다
  •  가, 다, 라
  •  나, 다, 라
  •  다, 라, 마

10. 다음 중 빅데이터의 (미래) 가치 패러다임 변화 순서로 알맞은 것은?
가. Connection
나. Agency
다. Digitalization
  •  가-나-다
  •  가-다-나
  •  다-가-나
  •  다-나-가

데이터 분석 기획


11. 데이터 분석기획 유형 중 분석의 대상 및 방식에 대한 설명으로 옳지 않은 것은?
  •  분석대상을 모르고 분석방식을 알면 통찰력을 활용할 수 있다.
  •  분석방식만 알고 있으면 솔루션의 이용이 가능하다.
  •  분석대상과 분석방식을 모두 알 경우 최적화 또는 예측이 가능하다.
  •  분석대상과 분석방식을 모두 모를 경우 탐색을 통한 발견이 가능하다.

12. 분석 기획 단계에서 프로젝트 위험 대응 계획 수립 시 대응방안으로 옳지 않은 것은?
  •  완화(Mitigate)
  •  제거(Elimination)
  •  전이(Transfer)
  •  회피(Avoid)

13. KDD분석방법론의 프로세스 중 아래 보기가 설명하는 단계로 적절한 것은?
분석 추출된 분석대상 데이터 셋에 포함된 잡음(Noise), 이상값(Outlier), 결측값(Missing Value)를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하는 단계이다.
  •  데이터 변환
  •  데이터 전처리
  •  데이터 마이닝
  •  데이터 셋 선택

14. 분석과제 발굴 방법 중 상향식 접근법(Bottom Up Approach)에 대한 설명으로 옳지 않은 것은?
  •  문제가 정의되어 있지 않거나 분석과제가 주어지지 않은 경우에 적합한 접근법이다.
  •  일반적으로 지도학습(Supervised Learning)의 방식을 수행한다.
  •  다양한 원천 데이터를 대상으로 분석을 수행하여 가치있는 문제를 도출하는 일련의 과정이다.
  •  하향식 접근방식과는 달리 복잡하고 다양한 환경에서 발생하는 문제해결에도 적합하다.

15. 다음에서 설명하는 문제탐색 기법으로 알맞은 것은?
  •  분석 유즈케이스
  •  외부 참조 모델
  •  경쟁자 확대 관점
  •  역량의 재해석

16. 아래 보기에서 설명하는 분석프로젝트 관리영역으로 알맞은 것은?
  •  조달관리
  •  통합관리
  •  범위관리
  •  원가관리

17. 분석 로드맵 설정 단계인 '데이터 분석 체계 도입 -> 데이터 분석 유효성 입증 -> 데이터 분석 확산과 고도화'에서 유효성 검증을 위한 추진 내용으로 알맞은 것은?
  •  마스터 플랜 수립
  •  PI 수행
  •  유관시스템 고도화
  •  파일럿 테스트

18. 다음 중 분석 거버넌스 체계의 구성요소로 알맞지 않은 것은?
  •  과제 기획 및 운영 프로세스
  •  분석기획 및 관리 수행 조직
  •  분석교육 및 마인드 육성 체계
  •  과제 예방 및 비용 집행

19. 분석조직에 대한 설명으로 알맞지 않은 것은?
  •  기업의 경쟁력 확보를 위해 데이터 분석가치를 발견한다.
  •  구성원들은 비즈니스 역량,IT역량 및 분석역량을 갖춰야 한다.
  •  데이터 분석결과를 통해 최종 의사결정을 내리는 주체이다.
  •  협업 부서 및 IT부서와의 지속적인 커뮤니케이션을 수행한다.

20. 분석 수준 진단의 결과로 분석 준비도는 높은데 분석 업무 및 기법 등이 부족한 기업의 유형은?
  •  도입형
  •  정착형
  •  확산형
  •  준비형

데이터 분석


21. 결측값 처리에 사용되는 완전사례분석(complete Case Analysis)에 대한 설명으로 옳지 않은 것은?
  •  결측값을 모두 제거하는 방법이다.
  •  결측값이 특정 그룹에 집중된 경우 편향된 결과가 초래될 수 있다.
  •  결측값의 수가 많은 경우 데이터 손실이 많이 발생할 수 있다.
  •  결측값을 데이터의 평균으로 대치한다.

22. 결측값에 대한 설명으로 옳지 않은 것은?
  •  결측치 처리는 값이 존재하지 않고 비어있는 상태를 의미한다.
  •  결측값의 처리여부가 데이터 분석의 속도에 영향을 미치지 않는다.
  •  결측치는 정보 손실 및 통계적 편향의 발생이 가능하다.
  •  NA와 NaN의 의미는 같지 않다.

23. 위치 측도와 산포 측도에 대한 설명으로 알맞지 않은 것은?
  •  평균은 모든 관측값을 더한 뒤 관측값의 개수로 나눈 값이다.
  •  표준편차는 분사의 값에 제곱근을 하여 단위를 통일시킨 값이다.
  •  중앙값이란 자료를 크기 순서대로 나열한 것의 가운데 값으로서, 이상값에 영향을 많이 받는다.
  •  평균절대편차는 각 관측값과 평균 사이의 거리의 평균이다.

24. 이름 ,성별, 지역 등을 표시하는 척도로 알맞은 것은?
  •  명목척도
  •  서열척도
  •  등간척도
  •  비율척도

25. 모수 검정과 비모수 검정에 대한 설명으로 옳지 않은 것은?
  •  모수검정은 표본통계량을 이용해 검정한다.
  •  비모수검정은 관측 값들의 순위나 관측값 사이의 부호를 이용한다.
  •  모수 검정은 모수의 분포에 대한 어떠한 가정도 하지 않는다.
  •  비모수검정은 카이제곱 검정, 맨휘트니검정 방법을 사용할 수 있다.

26. 대립가설과 귀모가설에 대한 해석으로 옳은 것은?
  •  귀무가설: 상관계수는 1이다. 대립가설: 상관계수는 1이 아니다.
  •  귀무가설: 상관계수는 1이 아니다. 대립가설: 상관계수는 1이다.
  •  귀무가설: 상관계수는 1이다. 대립가설 : 상관계수는 0이 아니다.
  •  귀무가설: 상관계수는 0이 아니다. 대립가설 : 상관계수는 0이다.

27. Sleep 데이터는 최면성 약물을 10명의 환자에게 투여했을 때 수면 시간의 증가를 기록한 데이터다. Summary 함수 결과에 대한 해석 중 알맞지 않은 것은? (extra: 수면시간의 증가량, group: 사용한 약물의 종류, ID: 환자 식별번호)
  •  수면시간이 최대 5.5시간까지 늘어난 환자가 있다.
  •  75% 이상은 3.4시간 이상 수면시간이 늘어났다.
  •  평균적으로 수면시간은 0.95시간이 증가했다.
  •  ID는 범주형 데이터이다.

28. 아래는 다섯 종류의 오렌지 나무(Tree)에 대한 연령(Age)와 둘레(Circumference)를 측정한 자료이다. 다음 중 자료에 대한 설명으로 가장 옳지 않은 것은?
  •  관측값은 6개이다
  •  나무 연령의 평균값은 922.1이다.
  •  나무는 명목척도이다.
  •  나무 둘레의 50%는 115.0 이상이다.

29. 선형회귀모형의 오차항에 대한 가정조건으로 옳지 않은 것은?
  •  등분산성, 정규성, 선형성
  •  등분산성, 정규성, 독립성
  •  표준성, 신뢰성, 정확성
  •  독립성, 정확성, 신뢰성

30. 범주형 종속변수에는 지니지수를, 연속형 종속변수에는 분산감소량을 사용하는 의사결정나무 알고리즘
  •  CHAID
  •  C5.0
  •  CART
  •  ID3

31. Cook's Distance에 대한 설명으로 옳지 않은 것은?
  •  공분산(Cov)은 개별 데이터 포인트가 미치는 영향을 측정한다.
  •  Cook's Distance가 크면 영향력이 크다.
  •  Cook's Distance는 회귀 분석에서 흔히 사용되는 영향력 지표이다.
  •  기준값인 1보다 클 경우 영향치로 판단한다.

32. 계층적 군집분석에 대한 설명으로 알맞은 것은?
  •  군집의 수를 정한 상태에서 개체를 포함해가는 군집 방법이다.
  •  군집들은 일반적으로 중복될 수 있는 부분 집합으로 구성된다.
  •  k-Means, K-Medoids가 대표적인 알고리즘이다.
  •  분할적 군집(Partitional Clustering)이라고 한다.

33. 시계열 분석에 관한 설명으로 옳지 않은 것은?
  •  AR의 PACF는 절단 이후급격히 감소하지 않고 ACF는 시간이 지남에 따라 감소한다.
  •  MA는 PACF는 시간이 지남에 따라 감소하고 ACF는 절단 이후 급격히 감소한다.
  •  ARMA의 PACF와 ACF는 모두 절단 이후 급격히 감소한다.
  •  AR은 자기 변수와 관련이 있고 PACF의 절단 이후 급격히 감소한다.

34. 다음은Carseats 데이터의 Summary함수와 상자 그림의 결과이다. 변수 중에 이상값이 존재하는 것은?
  •  Education
  •  Income
  •  Advertising
  •  Complete

35. 다차원 척도법에 대한 설명으로 알맞지 않은 것은?
  •  데이터 간의 거리를 바탕으로 관계 구조를 시각적으로 표현하는 통계 데이터 분석 기법이다.
  •  개체들의 비유사성(거리)를 이용하는 점에서 군집분석과 동일하다.
  •  다차원 척도법은 데이터 간의 상대적 거리를 실수의 범위에서 완전히 보존할 수 있는 분석 기법이다.
  •  다차원 척도법은 근접도의 계산 방식에 따라 계량적 다차원 척도법과 비계량적 다차원 척도법으로 구분된다.

36. 의사결정나무 모형의 분리기준에 대한 설명으로 옳은 것은?
  •  지니지수가 0일 때 순수도는 최대이다.
  •  카이제곱통계량이 작을수록 분리된 노드는 이질적이다.
  •  엔트로피 값이 클수록 불순도는 낮다.
  •  이진분리는 고유값만큼 많은 파티션을 사용해 집합을 나눈다.

37. 다음 중 의사결정나무 모형의 학습 방법에 대한 설명으로 옳지 않은 것은?
  •  가지치기를 하면 과적합이 줄어들고 학습 데이터에 대한 예측 성능을 향상시킨다.
  •  이익도표 또는 검정용 자료에 의해 교차 검증(교차타당성) 등을 이용해 의사결정나무를 평가한다.
  •  각 마디에서의 최적 분리규칙은 분리변수의 선택과 분리 기준에 의해 결정된다.
  •  대표적인 적용 사례는 대출신용평가, 환자 증가 유추, 채무 불이행 가능성 에측 등이 있다.

38. 다중공선성(Multicollienarity)에 대한 설명으로 옳은 것은?
  •  회귀 계수(베타)의 표준오차가 증가하여 회귀계수의 정확한 추정이 어렵다.
  •  VIF를 구하여 이 값이 1 이하일 때, 다중공선성의 문제가 있는것으로 판단한다.
  •  두 변수의 분산평창요인(VIF) 값이 1에 가까우면 회귀식의 기울기는 완만하다.
  •  다중공선성 문제를 해결하기 위해 상관관계가 높은 종속변수는 제거한다.

39. 다음의 회귀분석 결과에 대한 설명으로 옳지 않은 것은?
  •  위의 모형은 Balance를 설명하는데 통계적으로 유의하다.
  •  자유도는 394이다.
  •  자료의 개수는 400개이다.
  •  Income은 Balance에 통계적으로 유의미한 영향을 주는 변수이다.

40. 상관계수에 대한 설명으로 옳지 않은 것은?
  •  피어슨 상관계수는 두 변수 간의 선형관계의 크기를 측정한다.
  •  상관계수가 0일때 변수들은 서로 독립적이다.
  •  스피어만 상관계수는 두 변수 간의 비선형적인 관계도 측정 가능하다.
  •  피어슨 상관계수와 스피어만 상관계수는 -1과 1 사이의 값을 가진다.

41. 다층 신경망에서 노드의 개수가 적을 경우의 특징으로 옳은 것은?
  •  활성화 함수의 사용불가
  •  의사결정 단순해짐
  •  기울기 소멸
  •  학습시간이 오래 걸림

42. 아래 오분류표에서 재현율(Recall)로 알맞은 것은?
  •  TP/(TP +FN)
  •  TP/(TP+FP)
  •  TP/FP
  •  TN/FN

43. 단계별 변수 선택 방법에 대한 설명으로 옳지 않은 것은?
  •  전진 선택법은 중요하다고 생각되는 변수부터 차례로 선택하는 방법이다.
  •  후진 제거법은 변수의 개수가 많은 경우에 사용하기가 어렵다.
  •  AIC, BIC는 통계량이 낮을수록 적합한 변수 선택 조합이라 판단할 수 있다.
  •  Lasso는 L2패널티를 이용하여 변수를 선택한다.

44. 다음 중 앙상블 모형의 배경에 대한 설명으로 옳지 않은 것은?
  •  배깅은 모델의 분산을 감소시켜 과대적합(Overfitting)을 증가시킬 수 있다.
  •  배깅은 부트스트랩(Bootstrap)으로 데이터의 다양성을 확보한다.
  •  배깅은 종속변수가 범주형 데이터의 경우 하드보팅을 적용한다.
  •  대표적인 배깅방식은 랜덤 포레스트(Random Forest)알고리즘이다.

45. 로지스틱 회귀분석에 대한 설명으로 옳지 않은 것은?
  •  로지스틱 회귀분석의 모델 탐색은 최대우도추정법을 이용한다.
  •  로지스틱 회귀분석은 독립변수에 대한 어떠한 가정도 필요하지 않다.
  •  로지스틱 회귀분석은 회귀계수의 변형없이 직관적 해석이 용이하다.
  •  로짓변환을 통해서 곡선을 직선형태로 변환을 할 수 있어 직관적 해석이 가능하다.

46. 시계열 분석에 대한 설명 중 알맞지 않은 것은?
  •  시계열의 평균이 일정하지 않은 경우에는 차분을 통해서 정상시계열로 전환이 가능하다.
  •  시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 분해시계열이라 한다.
  •  이동평균법은 시계열 데이터가 일정한 주기를 갖고 비슷한 패턴으로 움직이고 있는 경우에 적용할 수 있는 방법이다.
  •  지수평활법은 미래에측을 위해 과거 자료를 가중치를 부여하는 통계 기법이다.

47. 군집분석에 대한 설명으로 옳지 않은 것은?
  •  계층적 군집분석은 덴드로그랩의 혀애로 표현된다.
  •  비지도학습이다.
  •  데이터에 명확한 기준이 없으면 적용하지 못한다.
  •  계층적 군집화에서는 일단 군집이 형성되면 다른 군집으로 이동할 수 없다는 제약이 없지만, 보통은 먼저 형성된 군집을 유지하면서 계속해서 새로운 군집을 형성하게 된다.

48. 공간 내 두 점 사이의 거리를 측정하는 방법에 대한 설명으로 옳지 않은 것은?
  •  데이터 사이의 유사성을 측정하고 군집으로 나누는 방법이다.
  •  맨해튼거리는 최단 직선거리 계산방법이다.
  •  코사인유사도는 벡터간의 코사인 각도를 이용한다.
  •  유클리드 거리는 각 속성들 간의 차이를 모두 고려한다.

49. 아래 거래 데이터에서 연관규칙으로 맥주-->기저귀의 지지도와 신뢰도를 구했을 때 옳은 것은?
  •  지지도 40%, 신뢰도 80%
  •  지지도 40%, 신뢰도 66.6%
  •  지지도 80%, 신뢰도 80%
  •  지지도 66.6%, 신뢰도 40%

50. 연관분석에 대한 설명으로 틀린 것은?
  •  신뢰도는 품목 A가 구매되었을 때, 품목 B가 추가로 구매될 확률이다.
  •  향상도는 품목 A와 품목 B 서로 간의 연관성을 파악한다.
  •  품목 A와 품목 B가 독립사건일 경우 지지도는 1이다.
  •  연관분석을 이용해 상품진열, 부정탐지, 상품구성 등에 활용 가능하다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr